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摘 要 : 离 群 点 检测 旨 在 有 效 识 别 数据 集中 的 异常 数据 ， 挖 据 出 数据 集中 有 意义 的 潜在 信息 。 现 有 的 离 群 度 检测 
算法 因 没 有 对 原 数据 进行 处 理 导 致 计算 时 间 复 杂 度 过 高 ， 检 测 效 果 不 理想 。 提 出 一 种 基于 网 格 过 滤 的 两 阶段 离 群 
点 检测 算法 NLOF: 首先 使 用 网 格 过 滤 对 原 数据 进行 初步 筛选 ， 将 密度 小 于 特定 赋值 的 数据 放 入 候选 异常 子 集中 ; 
然后 为 了 进一步 优化 基于 密度 的 算法 ， 基 于 k AA, a P 只 之 比 ， 作 为 
数据 点 密度 计算 的 依据 ， 进 行 离 群 点 检测 以 获得 更 准确 的 离 群 点 集 。 在 多 种 公开 数据 集 上 进行 实验 ， 实 验 表明 ， 
该 方法 可 以 在 异常 检测 中 取得 良好 的 性 能 ， 同 时 降低 了 算法 的 时 间 复 杂 度 。 
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NLOF: two-stage outlier detection algorithm based on grid filtering 
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(1. School of Information Science & Engineering, Shandong Normal University, Jinan 250014, China; 2. Shandong Key 
Laboratory of Distributed Computer Software, Jinan 250014, China; 3. Shandong Education Admissions Examination 
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Abstract: The purpose of outlier detection is to effectively identify anomalous data in the dataset and to mine meaningful 
potential information in the data set. The existing outlier detection algorithm does not process the original data, resulting in 
too high computational time complexity and unsatisfactory detection results. This paper proposes a two-stage outlier 
detection algorithm NLOF based on grid filtering: First use grid filtering to initially screen the original data, put data with a 
density less than a certain threshold into a candidate exception subset; then in order to further optimize the density-based 
algorithm, based on the k-neighborhood, according to the ratio of the number of data points in the neighborhood to the area 
of the circle formed by the neighborhood, as the basis for calculating the data point density, outlier detection to obtain a 
more accurate outlier set. Experiments have been carried out on a variety of public datasets. Experiments show that this 
method can achieve good performance in anomaly detection and reduce the time complexity of the algorithm. 


Key words: outlier detection; mesh filtering; local density; NLOF algorithm 


E 0 ug 法 不 适合 分 布 未 知 的 数据 集 。 基 于 深度 的 方法 可 以 解决 这 个 
rz z 问题 ， 它 假设 数据 在 空间 中 由 内 到 外 一 层 一 层 包 囊 而 成 ， 越 

离 群 点 检测 是 数据 挖掘 领域 的 一 个 重要 研究 方向 ,用 于 “处 在 外 层 多 边 形 上 的 数据 点 异常 度 越 高 ， 但 这 种 方法 对 超过 
在 大 量 复杂 的 数据 集合 中 消除 噪声 数据 或 者 发 现 潜在 未 知 的 。 ”三 维 的 数据 就 不 甚 理想。 基于 距离 的 方法 I 因为 其 有 效 性 和 
有 意义 信息 。 离 群 点 检测 可 以 广泛 的 应 用 在 电子 商务 犯罪 、 ”简化 性 被 广泛 应 用 ， 但 是 基于 距离 的 算法 没有 考虑 局 部 密度 
信用 卡 坎 放 侦查、 网络 入 侵 检测 、 生 态 系统 失调 检测 、 公 共 的 变化 。 基 于 密度 的 方法 可 以 很 好 地 解决 这 个 问题 。 已 经 提 
卫生 、 天 文学 未 知 种 类 天 体 发 现 等 很 多 领域 -3]。 随 着 机 器 出 了 很 多 基于 密度 的 离 群 点 检测 算法 ， 如 LOFm、INFLOR 
学 习 、 模 式 识别 、 人 工 智能 等 领域 的 发 展 ， 越 来 越 多 有 效 的 MINS, 
离 群 点 检测 方法 不 断 地 被 人 们 提出 。 离 群 点 检测 算法 有 很 多 基于 密度 的 离 群 点 检测 算法 也 存在 很 大 的 缺点 。 算 法 通 
员 ， 大 致 包括 基于 分 布 的 方法 、 基 于 深度 的 方法 、 基 于 距离 。 过 计算 数据 集中 每 个 数据 点 的 离 群 因子 值 确定 异常 子 集 ， 通 
的 方法 、 基 于 密度 的 方法 等 。 最 近 还 提出 了 一 种 基于 海量 数 。” 常 选取 离 群 因子 值 较 大 的 若干 个 数据 点 作为 离 群 点 。 这 种 利 
据 聚 类 的 高 效 异常 检测 方法 中 。 用 离 群 因子 来 确定 异常 子 集 的 方法 在 已 知 离 群 点 数量 的 小 规 
每 种 类 型 的 离 群 点 检测 算法 都 有 其 各 自 的 优 缺 点 ， 在 基 — 模 数据 集中 检测 效率 很 高 ， 但 是 多 数 的 离 群 点 检测 算法 对 离 
于 分 布 的 方法 中 ， 偏 离 标 准 分 布 的 被 认为 是 离 群 点 ， 基 于 分 。 群 点 的 个 数 未 知 ， 而 且 数 据 规模 较 大 ， 所 以 对 数据 的 过 滤 以 


布 的 方法 可 以 简单 有 效 地 检测 出 异常 值 。 但 是 基于 分 布 的 方 ” ”减少 正常 数据 的 干扰 显得 格外 重要 。LOF 离 群 点 检测 算法 


T 


收 稿 日 期 : 2018-09-29; 修 回 日 期 : 2018-11-19 ”基金 项 目 : 国家 自然 基金 科学 基金 资助 项 目 (61373148); 国家 青年 自然 科学 基金 资助 项 目 
(61502151); 山东 省 社 科 规划 项 目 〈17CHLJ18，17CHLJ33，17CHLJ30); 山东 省 自然 科学 基金 资助 项 目 (ZR2014FL010); 山东 省 教育 厅 基 金 资助 项 
目 (J15LN34) 

作者 简介 : 王立 英 〈1994-)， 女 ， 山 东 济 南 人 ， 硕 士 ， 主 要 研究 方向 为 数据 挖 据 ; 石磊 (1970-)， 男 (通信 作者 )， 研 究 员 ， 主 要 研究 方向 为 网 络 
模型 及 网 络 环境 下 应 用 技术 研究 (1542279330@qq.com); 伊 静 (1979-)， 女 ， 博 士 研 究 生 ， 副 教授 ， 主 要 研究 方向 为 计算 机 网 络 、 数 据 挖 据 ; RRE 
(1994-)， 女 ， 硕 士 ， 主 要 研究 方向 为 异常 行为 检测 . 


201901.00183v1 


chinaXiv 


ChinaXiv 合 作 期 刊 
第 37 卷 第 4 期 


王立 英 ， 等 : NLOF: 基于 网 格 过 滤 的 两 阶段 离 群 点 检测 算法 


即 点 o 到 点 p 的 第 k 可 达 距 离 ， 至 少 是 o 的 第 k 距离 ， 


录用 定稿 
需要 重复 计算 k 距离 获得 局 部 离 群 因子 值 ， 导 致 算法 产生 较 
大 的 时 间 复 杂 度 ， 对 LOF 算法 进行 相应 的 改进 也 显得 非常 
重要 。 
1 ”相关 介绍 
131 离 群 点 定义 

离 群 点 U9 的 定义 根据 不 同 的 检测 方法 存在 差别 ， 但 
Hawkins00 给 出 了 离 群 点 的 经 典 定义 : 一 个 离 群 点 是 一 个 数 
据点 ， 它 严重 偏离 其 他 数据 点 以 至 于 怀疑 是 由 不 同 机 制 生成 
的 。 被 研究 者 广泛 接受 并 成 为 研究 离 群 点 问题 的 基础 。 
1.2 基于 网 格 的 聚 类 方法 

基于 网 格 的 聚 类 算法 将 空间 量化 为 有 限 数目 的 单元 ， 形 
成 一 个 网 格 结构 ， 所 有 聚 类 02313 都 在 网 格 上 进行 。 基 于 网 格 


JR 
输入 对 象 分 布 的 单元 。 基 于 网 格 的 聚 类 方法 
率 的 网 络 数据 结构 。 将 对 象 空间 量化 成 有 
些 网 格 形成 了 网 格 结构 ， 所 有 的 聚 类 结构 者 


行 
据 


| 


大 | 


o 


对 


格 聚 类 的 方法 
FAUS, CLIQUE 算法 等 。CLIQUE 算法 是 基于 网 格 的 空间 


聚 类 算法 ， 它 同时 基于 密度 的 聚 类 算法 ， 


此 


长 类 方法 采用 空间 驱动 的 方法 ， 把 嵌入 空间 划分 成 独立 于 


使 用 一 种 多 分 辨 


此 方法 的 


限 数 


的 单元 ， 这 
了 在 这 种 结构 上 进 


要 优点 是 处 理 速度 快 ， 其 处 理 时间 独 立 于 数 


象 数 ， 而 


仅 依 赖 于 量化 空间 中 的 每 一 维 


的 单元 数 。 基 于 


很 多 ， 如 STING 算法 [ 


非常 好 地 结合 了 


= 


^. Wave Cluster 


既 能 够 发 现任 意 形状 的 徐 ， 又 可 以 像 基 于 网 格 的 算法 一 
样 处 理 较 大 的 多 维 数 据 。 
CLIQUE 算法 m1 把 每 个 维 划 分 成 不 重 车 的 社区 ， 从 


而 把 数据 对 象 整个 嵌入 空间 划分 成 单元 。C 


LIQUE 算法 把 多 


I 某 个 单元 中 点 的 


值 ， 当 某 个 


维 数据 空间 分 割 成 若干 个 网 格 单元 ， 将 落 至 
数目 当成 这 个 单元 的 数据 对 象 密度 ， 指 定 一 个 效 
单元 中 点 的 个 数 大 于 这 个 阔 值 时 ， 就 说 这 是 一 个 稠密 单元 格 。 


CLIQUE 聚 类 算法 是 综合 


基于 密度 和 网 格 聚 类 算法 的 精华 ， 


或 者 为 op 间 的 真实 距离 。 
e)local reachability density: 
可 达 密 度 表 示 为 


局 部 可 达 


ocv, (preach — dist, (p,0) 


X 
inline IN.» 


focal outlier factor: 局 部 离 群 因 子 。 点 p 的 


妹子 表示 为 
5 lrd(o) 
LOK (p) - — Walp) _ Zemlia (0) 
PT NOI Ex 


p) 


Hrdy( 


LOF 离 群 点 检测 算法 在 实际 应 用 


常 点 ， 离 群 点 仅 


法 的 更 高 时 间 复 杂 度 。 因 
的 两 阶段 离 群 点 检测 算法 。 
2 本文 算法 
针对 短 时 间 
提出 了 本 文 算法 。 
确保 处 理 大 型 数 


E 


昌 库 中 高 维 


行 时 间 ， 


中 


内 过 滤 数 据 库 中 的 离 群 点 ; 
算法 通过 使 用 网 格 过 滤器 初步 判断 异常 点 ， 


点 Pp 的 局 部 


Q) 
局 部 离 群 


G) 


p) 


存在 缺陷 : LOF 算 
法 需要 计算 数据 点 的 离 群 因子 值 ， 数 据 集 中 的 多 数 数据 是 正 
5 据 其 中 的 小 部 分 ， 这 意味 着 LOF 算法 中 
存在 大 量 无 效 的 离 群 因子 值 计 算 ， 这 种 无 效 计算 直接 导致 算 
此 ， 本 文 提出 了 一 种 基于 网 格 过 渡 


侍 确 率 不 高 的 问题 ， 


空间 数据 具有 


E 复 计算 数据 点 的 


民 高 的 效率 ， 保 证 
格 单元 能 够 出 现在 候选 离 群 点 之 内 ， 高 效 减少 数据 
。 通 过 改进 的 基于 密度 的 离 群 点 检测 方法 ， 减 少 算法 的 运 
提高 算法 效率 ， 避 免 算法 因为 习 局 


ES 


子 


值 产 生 的 较 大 时 间 复 杂 度 。 


2.1 模型 概述 


ME 


两 阶段 的 离 群 点 检测 算法 主要 包括 两 个 


i 是 本 文 方法 的 相 


2I 


) 通过 网 格 过 滤 完 成 对 稠密 网 格 单元 的 处 理 ， 确 保 非 


处 理 大 型 数据 库 中 混合 类 型 及 高 维 的 空间 数据 ， 具 有 很 高 的 ”稠密 网 格 单元 能 够 出 现在 候选 离 群 点 之 内 ， 生 成 初步 候选 离 

效率 ， 能 够 得 到 良好 的 聚 类 结果 。 群 因 子 集 。 

1.3 局 部 离 群 点 检测 算法 LOF b) 通过 改进 的 基于 密度 的 离 群 点 检测 方法 进行 精确 离 
LOF 是 21 世纪 初 Breuing 等 人 提出 的 一 种 基于 密度 的 群 子 集 的 判断 。 

离 群 点 检测 算法 。 通 过 将 某 个 对 象 的 局 部 密度 和 周围 密度 相 由 于 基于 网 格 过 滤 方 法 处 理 大 型 数据 库 中 混合 类 型 及 高 

比 得 到 数据 对 象 的 离 群 程度 ， 可 以 较 好 地 实现 局 部 离 群 点 的 。” 维 的 空间 数据 具有 很 高 的 效率 ， 基 于 距离 或 密度 的 异常 检测 

检测 ， 在 医疗 处 理 、 公 共 安 全 、 工 业 损毁 检测 、 图 像 处 理 和 ” ”方法 适合 于 局 部 异常 检测 ， 但 是 后 者 的 检测 精确 度 高 于 前 者 ， 

入 侵 检测 等 领域 得 到 了 广泛 应 用 。 因 为 LOF 对 密度 是 通过 ”所 以 对 算法 进行 相应 的 改进 ， 使 其 既 包 含 处 理 高 维 数 据 的 效 

点 的 第 k 邻 域 来 计算 ， 而 不 是 全 局 计算 ， 所 以 得 名 为 “局 部 ” 率 又 包含 局 部 离 群 点 检测 的 精度 。 

异常 因子 。 基于 网 格 的 过 滤 算 法 考虑 根据 数据 点 所 在 网 格 的 密度 阔 
基于 密度 的 离 群 点 检测 算法 BC 是 一 种 非常 经 典 的 异常 值 判 断 数据 是 否 异 常 ， 而 此 处 的 异常 是 一 个 全 局 的 概念 ， 很 


数 ] 


度 


挖掘 算法 0?20， 主 要 通过 比较 每 个 点 P 和 其 邻 域 点 的 密 
判断 该 点 是 否 为 离 群 点 ， 如 果 点 p 的 密度 越 低 越 可 能 被 认 
定 是 离 群 点 。 密 度 的 计算 通过 点 之 间 的 距离 得 到 ， 点 之 间距 


离 越 远 ， 密 度 越 低 ， 距 离 越 近 ， 密 度 越 高 。 
几 个 定义 : 


a)d(p.o: WA p 与 o 之 间 的 距离 。 


涉及 到 的 有 以 


b)k-distance: 55 k 距离 ，p 的 第 k 距离 ， 也 就 是 距离 p 


第 k 远 的 点 的 距离 不 包括 po 


c)k-distance neighborhood of p: 第 k 距 


离 邻 域 。 


点 p 的 第 k 距离 邻 域 MP) 就 是 p 的 第 k 距离 即 以 内 的 


HAA, AHE Kk 距离 。 因 此 p 的 第 k 邻 域 点 的 个 数 
Ni(p)>=k o 
d) reach-distance: 可 达 距 离 ， 点 o 到 点 p 的 第 k 可 达 距 


reach — distance.(p,o0)= max{k—distance(o),d(p,o)} 


(1) 


£ 
作为 一 个 过 滤器 ， 以 密度 闵 值 为 
的 判定 为 异常 候选 子 集 ， 在 
递 给 下 一 个 算法 的 计算 量 。 


High-level of the algorithm 
a)// 粗 过 滤 阶 段 

Input Dataset 

/输入 数据 集 
Grid-based filtering 

/利用 网 格 过 滤 算 法 对 数据 进行 初步 
Calculate m f 


// 通 过 m 8 划分 网 格 大 小 E E RE 


Ax 
师 


Hash( 把 数据 对 象 映 射 为 hash RP HA 


Ro 


选 


局 部 异常 的 异常 数据 不 会 超过 该 密度 闵 值 ， 所 以 将 该 算法 
判断 依据 ， 将 密度 小 于 阔 值 
上 过滤 阶 段 会 一 定 程 度 上 减少 传 
通过 结合 改进 的 基于 密度 的 离 群 
点 检测 方法 ， 得 到 更 为 精确 的 异常 数据 集 
阶段 的 离 群 点 检测 算法 的 大 致 流程 如 下 所 示 。 


和 元) 
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Getnumberpoints () 一 个 和 数据 集 大 小 相关 的 密度 阔 值 函数 。 
// 获 得 各 个 网 格 中 的 数据 对 象 通过 实验 验证 不 同 数据 集 大 小 与 密度 闵 值 之 间 的 关系 ， 
if (Getnumberpoints () <£ ) 总 结 各 个 数据 集 大 小 与 密度 闷 值 之 间 的 关系 ， 提 出 本 文 的 密 
// 执 行 网 格 过 滤 采 用 递归 判断 的 方法 FE BREL EFL 
Get Candidate Outlier Dataset; i l 
A VE E Ae Uds gp G) 
// 输 出 候选 异常 子 集 3 
b)// 检 测 阶段 其 中 : 6 为 网 格 过 滤 的 密度 闵 值 ， | 为 数据 集 N 的 数量 大 
Input Candidate Outlier Dataset 小 。 
// 输 入 候选 异常 子 集 网 格 过 滤 阶 段 ， 算 法 需要 的 第 一 个 参数 是 网 格 步 长 ， 算 
Yi=Compute lrd,(xj) 法 需要 的 第 二 个 参数 是 密度 闵 值 。 为 了 验证 本 文 提出 的 网 格 
// 利 用 本 文 构 造 的 离 群 因子 计算 数据 点 的 离 群 度 划分 函数 和 密度 阔 值 函数 的 合理 性 ， 使 用 人 工 合成 的 数据 集 
if (Yi»di) 进行 测试 。 表 1 所 示 为 数据 规模 包括 
/执行 异常 检测 采用 递归 判断 的 方法 N=100,N=1000,N=2000,N=5000,N=10000,N=20000,N=50000, 
Get Outlier Dataset N-100000 HARES, AAL mM A 函数 ， 过 滤 前 后 数据 
// 输 出 异常 子 集 样本 的 变化 结果 。 
2.2 网 格 过 滤 阶段 dl 样本 变化 统计 
在 网 格 过 滤 阶 段 ， 此 阶段 主要 负责 进行 数据 集 的 读 入 和 Table 1 Sample change statistics 
构建 动态 哈 希 表 。 将 数据 集 存 储 到 物理 内 存 之 中 ， 当 对 读 入 样本 个 数 异常 点 数量 mo B 过 滤 后 的 样本 个 数 过 滤 后 异常 点 个 数 
的 数据 集 进行 扫描 时 ， 能 够 完成 所 有 数据 点 映射 任务 ， 每 个 100 4 8 3 15 4 
维度 的 数据 点 都 会 映射 到 与 之 相对 的 网 格 单元 之 内 ， 通 过 借 1000 9 16 5 32 
助 哈 希 表 储 存 结果 ， 实 现 对 输入 数据 信息 的 动态 化 读 入 。 此 2000 15 19 6 42 15 
种 算法 可 以 实现 对 所 有 网 格 单元 数据 点 数 的 实时 计算 ， 且 可 5000 31 26 9 113 31 
以 对 数据 计算 准确 度 进行 保证 ， 通 过 按照 事先 所 设 定 的 阔 值 10000 68 31 11 161 68 
完成 对 网 格 单元 类 型 的 判断 工作 ， 可 以 在 最 短 时 间 内 精准 判 20000 113 39 13 173 113 
断 出 网 格 单元 的 类 型 ， 并 完成 对 网 格 单元 的 处 理 ， 以 保证 算 50000 196 5117 497 196 
法 有 效 性 。 100000 365 64 21 9724 365 
网 格 过 滤 阶 段 对 数据 集 进 行 基于 网 格 的 映射 ， 通 过 排除 过 滤 阶 段 通过 给 定 的 数据 集 ， 根 据 本 文 提 出 的 网 格 划分 
各 个 密集 复 ， 得 到 初步 的 异常 子 集 。 采 用 网 格 划 分 的 方法 ， 函数 、 密 度 阔 值 函数 ， 计 算 网 格 步 长 和 合理 的 密度 阔 值 ， 根 
将 数据 集合 划分 为 网 格 ， 每 一 个 单元 格 代表 一 个 子 徐 ， 以 单 据 密度 阔 值 判断 网 格 是 稠密 网 格 或 非 稠 密 网 格 。 若 网 格 为 非 


元 格 中 的 对 象 个 数 为 近似 密度 。 网 格 过 滤 阶 段 ， 算 法 需要 两 。 稠密 网 格 ， 则 将 该 网 格 中 的 数据 点 放 入 异常 数据 候选 子 集 。 
个 参数 ， 一 个 是 网 格 的 步 长 ， 第 二 个 是 密度 的 闷 值 。 网 格 步 居 为 异常 具有 数量 少 且 与 正常 数据 不 同 的 特点 ， 所 以 分 
长 确定 了 空间 的 划分 ， 而 密度 阐 值 用 来 定义 密集 网 格 。 布 相 对 稀疏 ， 密 度 系数 较 小 ， 当 密度 系数 y 小 于 密度 阔 值 时 ， 
网 格 过 滤 阶 段 ， 算 法 需要 的 第 一 个 参数 是 网 格 步 长 ， 设 ”将 相应 的 数据 放 入 候选 异常 子 集 。 因 为 将 每 个 对 象 指 派 到 一 
数据 集 = (0.00; 中 的 数据 点 分 属于 各 个 网 格 之 中 ， 个 单元 并 计算 每 个 单元 密度 的 时 间 复 杂 度 和 空间 复杂 度 为 
网 格 的 数量 大 小 为 m*m ,网 格 划分 的 大 小 和 数据 集 的 大 小 相 ”Otm)， 所 以 整个 网 格 过 滤 过 程 是 非常 高 效 的 。 最 后 再 进行 改 
互 制约 。 当 数据 集 较 大 时 ， 网 格 的 大 小 应 相对 较 大 ， 和 否则 数 ” ” 进 的 基于 密度 的 离 群 点 检测 方法 进行 精确 检测 ， 减 少 算法 运 
据 分 布 较为 密集 ， 无 法 正常 区 分 候选 异常 子 集 。 当 数据 集 较 — 行 时 间 ， 提 高 算法 运行 效率 。 
小 时 ， 网 格 划分 大 小 应 相对 较 小 ， 否 则 数据 分 散 较 为 稀 玉 C， 2.3 ”精确 检测 阶段 
无 法 正常 区 分 以 排除 各 个 密集 簇 。 本 文 提出 一 个 与 数据 集 的 通过 上 一 阶段 的 过 滤 ， 可 以 得 到 初步 异常 子 集 ， 再 通过 
大 小 相关 的 网 格 划 分 数量 函数 ， 使 得 满足 上 述 条 件 。 通 过 实 。 更 加 精确 的 离 群 点 检测 算法 检测 。 基 于 密度 的 离 群 点 检测 算 
验 验 证 ， 网 格 划分 大 小 和 数据 集 数量 存在 函数 关系 ， 通 过 总 。 法 是 一 种 非常 经 典 的 异常 数据 挖 气 算 法 ， 主 要 通过 比较 每 个 
结 各 个 数据 集 大 小 与 网 格 步 长 的 关系 ， 提 出 本 文 的 网 格 划分 。 点 p 和 其 邻 域 点 的 密度 来 判断 该 点 是 否 为 离 群 点 。 如 果 点 p 
函数 : 的 密度 越 低 ， 则 越 可 能 被 认定 是 离 群 点 。 至 于 密度 ， 是 通过 
点 之 间 的 距离 来 计算 的 ， 点 之 间距 离 越 远 ， 密 度 越 低 ， 距 离 
越 近 ， 密 度 越 高 。 用 lrd 表示 局 部 可 达 密 度 。 点 p 的 局 部 可 


m-lNE-[NFI (4) 


Ep: N 为 数据 集 N 的 数量 大 小 ; m 为 网 格 的 行 数 ( 列 数 )。 达 密 度 表示 为 

网 格 过 滤 阶 段 ， 算 法 需要 的 第 二 个 参数 是 密度 闵 值 ， 密 Ird,(p) Zoen (preach — dist, (p, 0) (6) 
FE BUE FH oe x SC e oie. PE He I IR In FR ft ] IN. Q9 
KZ, predic bas EK IAE CAE. 2 E BR [ELIT n ] local outlier factor 表示 局 部 离 群 因子 。 点 p 的 局 部 离 
定 又 与 数据 集 大 小 、 网 格 步 长 相关 ， 所 以 密度 阔 值 和 数据 集 群 因 子 表示 为 
的 大 小 息息相关 。 当 数据 集 较 大 时 ， 网 格 中 数据 点 的 分 布 会 LOF, (p) - Deseo O) 
相应 的 增加 ， 此 时 密度 阔 值 应 相应 的 增 大 ; 否则 ， 无 法 确保 [Ni (p) | *lrd, Cp) 
非 稠密 网 格 单元 能 够 出 现在 候选 离 群 点 之 内 。 当 数据 集 较 小 LOF, (P) 的 值 越 接 近 1， 说 明 p 的 邻 域 点 密度 相差 不 大 ， 
时 ， 网 格 中 数据 点 的 分 布 会 相应 减少 ， 此 时 密度 阔 值 应 相应 p 可 能 和 邻 域 同属 一 复 ， 比值 越 小 于 1， 说 明 p 的 密度 高 于 


减少 ;否则 ， 部 分 稠密 网 格 单元 出 现在 候选 离 群 点 之 内 ， 使 其 邻 域 点 密度 ，p 为 密集 点 ;如 果 这 个 比值 越 大 于 1， 说 明 
得 网 格 过 滤 失 去 自身 的 过 滤 效 果 。 所 以 在 网 格 过滤 阶 段 提 出 p 的 密度 小 于 其 邻 域 点 密度 ，p 越 可 能 是 离 群 点 。 在 计算 点 
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o 到 点 p 的 第 k 可 达 距 离 时 ， 时 间 复 杂 度 为 COVe) 。 


数 ， 单 


y H 


的 个 数 越 少 ， 则 密度 越 4 
小 ， 则 说 明 数 据 之 间 的 昌 


在 基于 网 格 的 过 滤 算 法 


bh， 密度 表示 单位 


面积 内 点 的 个 


i 积 内 点 的 个 数 越 多 ， 则 密度 越 大 。 单 位 
\。 换 名 话说 ， 数 : 


面积 内 点 
点 分 布 的 范围 越 


E 离 越 紧密 ， 数 据 是 正常 点 的 可 能 性 


越 大 。 数 据点 分 布 的 范围 越 大 ， 则 说 明 数 据 之 间 的 距离 越 稀 


琉 ， 数 据点 是 离 群 点 的 可 能 性 
如 图 1 所 示 ， 可 达 距 离 k=3 
为 区 


21 


点 的 邻 域 所 组 成 的 单位 加 
邻 域 中 数据 点 的 个 数 ， 与 所 组 
点 密度 的 判断 依据 ， 算 法 的 时 间 复 杂 度 为 COw) ， 相 较 于 其 
他 离 群 点 检测 算法 大 大 减少 了 算法 
群 点 检测 的 算法 效率 。 


越 大 。 
DESC 


的 分 布 ， 当 以 k-3 


的 半径 时 ，pl 点 的 邻 域 所 组 成 的 单位 圆 面 


面积 大 很 多 。 本 文 将 第 k 距离 


DAC: 


积 的 比值 ， 作 为 数据 


积 相 比较 于 


所 需要 的 时 间 ， 提 高 了 离 


2r 


l 


Fig. 1 


图 1 


改进 的 基于 密度 的 


数据 分 布 图 
Data distribution map 


局 部 离 群 点 检测 算法 基于 异常 数据 的 


分 布 通常 比 正常 艇 分布 稀 跑 的 多 的 想法 。 根 据 第 k 距离 邻 域 


群 点 检测 算法 : 


部 可 达 密 度 越 大 ， 


中 数据 点 的 个 数 ， 与 第 k 距离 邻 域 所 组 成 的 圆 的 


、 
HR 


ndi 


Ird,(p) 2 N.Cp)/ z *Ck — distan ce(p)? 
数据 点 的 局 部 密度 越 小 ， 则 数 : 
围 越 大 ， 数 据点 是 离 群 点 的 可 能 性 越 大 ; 


作为 数据 点 密度 的 判断 依据 。 提 出 本 文 改进 的 基于 密度 的 离 


(8) 


据 分 布 在 k 距离 邻 域 的 范 


同 理 ， 数 据点 的 局 


据点 是 离 群 点 的 可 能 性 越 小 。 


2.4 算法 步骤 


a) 输 入 密度 阔 值 ， 应 用 网 格 过 
点 集 ， 此 处 的 密度 阔 值 通过 密 


步 进行 更 为 精确 的 优化 


b) 对 离 群 
终 的 离 群 点 集 。 
a)// 粗 过 滤 阶 段 


Grid-based filtering 
Initialize:new cell()// 初 始 化 ， 网 格 标记 为 @ 


Read() 
Get points(x,y,z) 


则 数据 分 布 在 k 距离 邻 域 的 范围 越 小 ， 数 


虑 算法 ， 得 到 初步 的 离 群 
度 闵 值 函数 得 到 ， 再 通过 下 


Reflect point (cellx, celly, cellz) 
Addnumberpoints()// 对 应 网 格 计数 加 1 
if (getnumberpoints>=densityThreshold) 


{ 
SetQuatified(1) 


// 网 格 数量 大 于 闵 值 设置 网 格 标记 为 1 


} 


点 集 进行 改进 的 基于 密度 的 异常 检测 ， 得 到 最 


Get pointstr1(x,y,z) 


Reflect point (cellx, celly, cellz) 
if(GetQuatified(1)) 


1 
Printf(pointstr1) 


LIRE F 8 BE REL PUR URS n 


} 
b)// 检 测 阶段 
Yi=Compute 


if Yi>di 


Ird, (x) ) 


Output: Outlier Dataset 


3 ”实验 及 结果 分 析 


3.1 数据 集 


为 了 验证 本 文 提出 的 基于 网 格 过 滤 的 两 阶段 离 群 点 检测 
对 比 本 文 算法 和 LOF 离 群 点 检测 算法 ， 通 过 
合成 数据 集 和 实际 数据 集 的 运算 结果 来 检测 算法 的 有 效 性 和 
可 用 性 。 为 了 比较 算法 在 不 同 数 扩 


算法 的 性 能 ， 


TA 
L A 


数据 集合 、 选 取 来 自 


姑 为 离 群 点 在 数据 集中 的 数量 较 少 ， 所 以 为 了 符合 数据 集 的 
分 布 规律 ,将 数据 集中 的 某 一 类 的 部 分 对 象 删除 并 作为 离 群 


居 规 模 的 检测 性 能 ， 
的 数据 集 进行 测试 ， 数 据 规模 包括 100~100000 [E] 
UCI 标准 数据 库 的 实验 数据 进行 验证 
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T 


使 用 人 


fs 


点 。 算 法 在 VS2010 和 matlabR2014a 中 实现 。 在 12 核 的 


Intel Xeon 3.5 GHz CPU, 32 GB RAM 


的 64 位 的 


o 


WindowslO 平台 进行 实验 。 表 2 为 相关 数据 集 信 息 的 描述 。 
表 2 实验 数据 统计 
Table 2 Statistics of experimental data 
数据 集 样本 个 数 属性 类 数 
Aggregation 788 2 7 
Compound 399 2 5 
Heart 150 13 2 
Liver disorder 150 6 2 
通过 网 格 过 滤 的 算法 对 表 2 所 示 的 数据 集 进 行 候选 异常 
子 集 的 筛选 ，k 距离 邻 域 的 大 小 对 算法 的 性 能 有 重要 影响 ， 
如 果 选 择 的 k 太 小 ， 则 可 能 无 法 检测 到 异常 值 徐 | 相反， 可 
以 将 正常 点 检测 为 异常 值 。 表 3 显示 了 当 k 取 不 同 值 时 对 


LOF 算法 精确 度 的 影响 。 当 k=8 时 ，LOF 算法 的 精确 度 最 
高 ， 选 取 k=8 为 本 文 的 k 距离 邻 域 。 


表 3 k 值 精确 度 
Table 3 K accuracy 


DE 


pou 


K 


LOF 


Aggregation 


69.2196 
69.39% 
67.98% 


Compound 


68.34% 
69.98% 
67.54% 


Heart 


70.36% 
70.36% 
68.11% 


Liver disorder 


o 00 uje œ ujo œ -1|'O œ N 


63.56% 
62.31% 
61.76% 


3.2 ”对比 实验 


为 了 验证 本 文 提 出 的 网 格 过 滤 算 法 的 性 能 ， 图 2 为 经 网 


格 过 滤 前 后 数据 量 的 对 比 。 基 
据 集 进行 初步 的 第 选 ， 即 把 数 拉 


于 网 格 过 滤 的 主要 目的 是 对 数 
昌 集 最 稠密 的 数据 复 去 掉 ， 
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尽 可 能 的 使 待 检测 的 数据 量 达 到 最 小 ， 大 大 减少 算法 运行 时 
间 。 根据 网 格 划分 函数 、 密 度 闹 值 函数 ， 对 不 同 数据 量 的 数 
据 集 进 行 网 格 大 小 和 密度 闪 值 的 计算 。 通 过 图 2 发 现 ， 当 数 
据 量 为 0~100000 时 ， 网 格 过 滤 前 后 数据 量 发 生 了 很 大 的 改 
变 。 例 如 ， 当 数据 集 为 100000 时 ， 经 网 格 过 滤 ， 
为 10742 个 ， 大 大 减少 了 数据 集 的 数量 ， 减 
要 的 时 间 ， 提高 了 算法 效率 。 然 后 对 待 检测 的 数据 利用 
的 基于 密度 的 离 群 点 检测 算法 计算 数据 的 离 群 率 。 


n 


2000 


0 
100000 50000 20000 10000 s000 1000 100 XXE 


— 网 格 过 源 前 网 格 过 源 后 
过 滤 前 一 一 一 过 滤 后 
图 2 网 格 过 滤 前 后 数据 量 对 比 
Fig.2 Comparison of data volume before and after grid filtering 
通过 改进 的 基于 密度 的 离 群 点 检测 算法 对 候选 异常 子 和 
进行 更 为 精确 的 检测 ， 将 时 间 复 杂 度 为 OON) 的 局 部 离 群 点 
检测 算法 转换 为 时 间 复 杂 度 为 ONO 的 基于 密度 的 局 部 离 群 


Yr 


点 检测 算法 。 为 了 验证 本 文 提出 的 基于 网 格 过 滤 的 两 阶段 离 
群 点 检测 算法 所 消耗 时 间 的 异常 检测 性 能 ， 图 3 显示 了 


NLOF 算法 所 消耗 时 间 和 LOF 算法 所 消耗 时 间 的 对 比 。 为 
了 比较 算法 在 不 同 数据 规模 的 检测 性 能 ， 使 用 多 个 数据 规模 
的 数据 集合 分 别 进行 测试 。 通 过 对 比 不 同 规模 的 数据 集 ， 
NLOF 算法 的 时 间 检 测 效果 都 非常 出 色 ， 相 较 于 原 算 法 大 大 
缩短 了 离 群 点 检测 所 需要 的 时 间 。 


NLOF (s) 
— NLOF (s) 


图 3 NLOF 算法 消耗 时 间 对 比 

Fig.3 NLOF algorithm consumption time comparison chart 

为 了 验证 本 文 提 出 的 基于 网 格 过 滤 的 两 阶段 离 群 点 检 洲 
算法 的 性 能 ， 表 4 列 出 了 通过 对 比 合成 数据 集 和 真实 数据 集 
tu sco. 
正确 找到 离 群 点 所 占 总 离 群 点 数量 的 百分比 。 通 过 网 格 过 
对 数据 集 进行 初步 筛选 ， 形 成 候选 异常 子 集 ， ipee 
子 集 进 行 更 加 精确 的 离 群 点 检测 ， 大 大 减少 了 算法 所 消耗 的 
时 间 。 通 过 对 比 不 同 数据 规模 、 不 同 离 群 点 个 数 ， 对 算法 的 
精确 度 进行 对 比 ，NLOF 算法 具有 更 精确 的 运算 结果 和 更 短 
的 运行 时 间 。 
于 合成 数据 集 是 人 为 生成 的 数据 集 ， 有 具有 一 定 的 规 得 
性 ， 本 文 又 对 比 了 真实 实验 数据 集 ， 如 表 4 所 示 的 离 群 点 检 
测 实验 结果 NLOF 算法 仍 具 有 更 好 的 检测 性 能 。 通 过 对 比 
四 个 数据 集 的 不 同样 本 数 ，NLOF 离 群 点 检测 算法 较 原 LOF 
算法 具有 较 高 准确 率 。 
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表 4 实验 结果 


Table 4 Experimental results 


数据 集 样本 个 数 ”异常 数据 ”本 文 算法 LOF 算法 
Aggregation 788 24 89.93% 69.39% 
Compound 399 18 91.02% 69.98% 
Heart 150 15 92.53% 70.36% 
Liver disorder 150 10 93.93% 62.31% 
4 ”结束 语 
本 文 深入 研究 了 现 有 的 离 群 点 检测 算法 的 缺点 ， 探 讨 了 
基于 网 格 过 滤 和 基于 密度 的 离 群 点 检测 算法 存在 的 优势 和 不 
足 。 本 文 提出 的 基于 网 格 过 滤 的 两 阶段 离 群 点 检测 算法 能 


很 好 地 将 处 理 高 维 数据 的 效率 与 局 部 检测 的 精度 结合 起 来 ， 
在 解决 不 同 数据 量 和 数据 类 型 的 问题 上 取得 了 比 以 往 离 群 点 
念 测算 法 更 加 优秀 的 结果 。 通 过 在 不 同 的 参数 下 与 原 检测 方 


法 进行 比较 ， 得 到 本 文 所 提出 的 算法 具有 更 好 的 检测 效果 。 
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